金融行业实践|某银行用户存储系统转型的评估与实践
作者:深耕行业的 SmartX 金融团队
近期,某银行用户为了实现存储系统扩容与分布式存储转型,针对 SmartX 自主研发的分布式存储 SMTX ZBS 与另一款基于 Ceph 开发的商业分布式存储(下文简称为 A 分布式存储)展开了对比测试。结果显示,SMTX ZBS 在性能、兼容性、可靠性、存储功能、扩展灵活性、日常运维等多方面,均展现出更出色的能力,帮助用户顺利解决了存储扩容难题,同时实现了 IT 基础架构的现代化转型。
上下滑动,查看本文重点内容
一、客户背景及需求
二、测试评估过程
三、SMTX ZBS 与 A 分布式存储测试结果
存储性能
安装部署的便捷性
存储性能稳定性
故障场景下的 I/O 中断时间
数据恢复算法
接入协议支持
存储策略灵活性
亚健康盘的判定策略
运维便利性
四、分布式存储测试小结
五、项目总结
一、客户背景及需求
该银行用户原先主要采用传统的三层式架构(即 VMware vSphere + SAN 存储网络 + 集中式存储阵列)构建数据中心 IT 基础架构,其中集中式存储系统使用了 HDS、HPE 等多套不同的存储产品。整个基础架构承载了行内众多的业务系统,包括开发测试、灾备、生产等环境,并保持了多年较平稳的运行。
而随着银行业务的不断发展,特别是互联网类业务的爆发式增长,银行存储系统的存储使用率已长期接近饱和,为了满足持续增长的数据存储需求,急需对存储系统进行扩容。同时随着银行信息化建设的推进,关键业务系统对存储系统的要求越来越高,用户也发现传统的存储方案逐渐暴露出了一些问题:
存储资源无法池化:目前在用的多套磁盘阵列系统各自独立部署,存储空间各自分离,无法互相均衡使用,导致存储设备利用率低,不利于资源的统筹规划。
集中式架构的扩展灵活性困境:集中式存储在扩展时单一扩展存储容量,性能受限且存储机头成为存储阵列可靠性的风险点,难以满足信息科技部门面临的越来越多的资源敏捷交付同时还要保证可靠性的需求。
采用专用硬件,运维复杂,扩容成本高:目前使用的多套存储阵列需要专用磁盘,相对于普通服务器的 SATA/SAS 硬盘,存储专用盘成本高、采购周期长;而且存储阵列需要搭配 SAN 存储交换机使用,不仅架构复杂,而且硬件升级缓慢,维护难度高。
不符合国产化及信创转型的趋势和要求:金融行业与国计民生休戚相关,作为区域重点银行,需要在信息技术领域进行合理的、科学的、具有前瞻性和可持续性的技术创新,稳步推进自主可控技术在信息技术架构中的占有比例;而银行当前的存储系统主要以国外产品为主,不符合信创转型的趋势和要求。
基于银行当前的存储容量扩容需求和现有存储系统的弊端,银行信息科技部对目前市场上主流成熟的各类存储技术和方案进行了深入调研,关注到了已经在金融行业内广泛使用的分布式存储技术方案——基于分布式架构,分布式存储可以实现灵活扩容,同步规避或解决以上集中式存储存在的问题,同时满足扩容和存储系统架构的转型需求。
选定分布式存储技术方案后,银行信息科技部对市场上主流的分布存储厂商进行了评估,在充分考察了厂商技术实力、产品功能特性、交付灵活性、售后服务支持,以及 Gartner 等权威机构报告后,用户选择了 SmartX 自主研发的分布式存储 SMTX ZBS 和另一款基于 Ceph 开发的 A 分布式存储软件进行为期两周的评估测试,对比验证这两款软件是否符合银行当前存储系统扩容和存储架构转型的双重需求。
二、测试评估过程
用户信息科技部为本次测试共准备了 8 台配置相同的超聚变 2288H V6 服务器作为存储服务器、4 台中兴 R5300 G4X 服务器作为计算服务器。SMTX ZBS 和 A 分布式存储分别安装在 4 台超聚变服务器上,部署为 2 套存储集群,以 iSCSI LUN 的方式,为 4 台中兴 R5300 G4X 服务器提供存储卷,供 VMware ESXi 作为 Datastore 使用;在 VMware ESXi 上,分别创建了位于 SMTX ZBS 和 A 分布式存储的 Datastore,并在不同 Datastore 各创建 4 台虚拟机(VM),用于后续的测试使用。测试服务器配置及网络环境如下:
测试共进行了包括兼容性、运维管理功能、虚拟化功能、存储管理功能、性能、稳定性、可靠性在内的数十个项目。测试项目汇总和结果统计如下:
*通过:表示该项测试虽通过验证,但测试数值明显低于对方数值或参考值。
三、测试结果对比分析
3.1 存储性能
结果显示,SMTX ZBS 的小块(4k、8k)随机读写性能,全面超越 A 分布式存储;大块(256k)顺序读写性能,由于受到后端 25G 存储及前端 10G 接入网络交换机的限制,两款存储产品测试性能结果差异较小。
3.2 安装部署的便捷性
SMTX ZBS 采用全图形化、向导式的方式进行安装,安装时长在 3 小时左右,无需要对网络交换机进行强制聚合绑定。
A 分布式存储采用图形化结合命令行的方式进行安装,安装时长需要 1-2 天,且需要与网络团队进行密切沟通和协同操作,提前对指定的网络交换机端口进行聚合绑定。
3.3 存储性能稳定性
根据测试用例,分别在存储集群空间使用率低于 20% 和高于 80% 条件下,进行存储性能的波动对比测试。测试结果显示,SMTX ZBS 在两种条件下,存储性能波动值小于 2%,性能稳定。
A 分布式存储系统的硬盘容量固定阈值为 90%,存储池容量预留值为 15%,因此在存储空间使用率高于 75% 时,集群出现存储容量严重不足的报警,因此未(无法)测试集群高负载条件下性能稳定性。
3.4 故障场景下的 I/O 中断时间
在进行分布式存储系统可靠性测试中,采用相同的故障模拟方式,分别验证了SMTX ZBS 和 A 分布式存储在集群单节点故障时对虚拟机磁盘 I/O 的影响。其中测得 SMTX ZBS 在主管理节点(Meta leader 节点)故障时的 I/O 中断时间为 5-7 秒,其它三个节点故障时无 I/O 中断。A 分布式存储在任意节点故障时,均造成了虚拟机 I/O 中断,最长可达 20 秒以上。
3.5 数据恢复算法
该测试项主要为了验证 SMTX ZBS 与 A 分布式存储在集群节点故障时数据恢复速率的 QoS 机制。其中 SMTX ZBS 可提供基于业务负载的智能数据恢复速率调节算法,每节点根据来自于应用的 IOPS 和带宽数据,自动调节 100-500MB/s 的速率恢复速率,也支持静态设置固定的数据恢复速率。如下图分别为 SMTX ZBS 动态最低 100MB/s、最高 500MB/s、静态指定 300MB/s 的数据恢复速率。
同等测试条件下,A 分布式存储支持的静态 QoS 限速功能为单盘低速(10MB/s),单盘中速(15MB/s),单盘高速(30MB/s,默认不开放)。以故障节点配置 10 块 HDD 为例,单节点仅支持 100MB/s、150MB/s、300MB/s 三种固定速率。
3.6 接入协议支持
SMTX ZBS 支持的接入协议包括 iSCSI、NVMe over TCP 和 NVMe over RDMA。SMTX ZBS 支持的存储网络协议包括 RDMA over Converged Ethernet(RoCE v2)和 TCP/IP。接入协议中,NVMe over TCP、 NVMe over RDMA 为新一代的网络接入协议,可用于升级替换传统的 iSCSI 接入协议。
在信创的场景下,使用 NVMe over RDMA(RoCE v2)和信创 CPU 架构的分布式存储,搭配国产以太网交换机替代 FC 交换机和传统集中式存储,即可同步实现 IT 基础架构的信创转型与架构升级,满足核心业务应用“高性能、低延迟”的需求。经验证,在 VMware ESXi 7.0 及以上版本使用 RoCE v2 协议,可提供比传统 iSCSI 协议高约 40%-400% 的性能(不同硬件和网络条件)。欲深入了解,请阅读:
相比而言,A 分布式存储支持的接入协议仅为 iSCSI,支持的存储网络协议为 TCP/IP。
测试中验证了 SMTX ZBS 可在存储系统中开启对以上协议的支持,但由于测试环境中 ESXi 服务器版本较低(ESXi 6.5 版本),不支持 NVMe over TCP 等接入协议,未进行性能测试对比。
3.7 存储策略灵活性
测试中验证了 SMTX ZBS 支持单存储池多种存储策略的灵活混用,在 iSCSI target 和 LUN 级别,可以分别设置 2 副本或 3 副本的副本级别,支持精简制备和厚制备两种模式。欲深入了解,请阅读:SmartX 分布式存储产品全新升级,支持文件存储能力与纠删码机制。
A 分布式存储的存储策略需要在创建存储池时指定,创建后无法修改,默认为 3 副本,可支持纠删码,但不支持对单个存储 LUN 指定不同的存储策略。
3.8 亚健康盘的判定策略
测试中验证了 SMTX ZBS 对亚健康磁盘的检测和判定机制。SMTX ZBS 支持包括 S.M.A.R.T. 在内的 3 种硬盘健康检测机制,其中自研工具 disk-health 通过检测硬盘实际读写的 Slow I/O 并累计计数和阈值,进行亚健康盘的判定。当硬盘达到计数阈值,被判定为亚健康盘后,依据集群整体容量负载,智能选择是否对亚健康盘进行隔离。欲深入了解,请阅读:一文了解 SmartX 超融合硬盘健康检测机制与运维实践。
A 分布式存储通过硬盘固件的 "S.M.A.R.T" 值来进行亚健康盘的判定,非实际读写 I/O;系统在判定亚健康盘后,立刻对盘进行隔离。在测试中,A 分布式存储平台由于误报,出现大量硬盘被同时隔离,造成存储池容量急剧降低且数据副本离线(丢失)不可用的问题。
3.9 运维便利性
测试中,验证了 SMTX ZBS 支持由页面触发硬盘闪灯定位、支持页面按钮点击卸载硬盘,以及当新硬盘挂载时,将自动加入存储池并可立刻投入使用。
A 分布式存储支持由页面触发硬盘闪灯定位,但页面无卸载硬盘功能,硬盘更换的操作步骤较多,如:
在存储 UI 管理界面中的【硬盘管理】界面找到故障盘,选中故障盘。
在【操作】列表中点击【硬盘重建】。
选择【新物理盘】。
选中新盘后点击【下一步】。
设置缓存盘选中【原缓存】后点击【下一步】进行硬盘重建。
硬盘重建成功后,osd 为健康状态,同时存储池开始数据重平衡,等待数据重平衡完成后,集群恢复正常,硬盘更换完成。
四、分布式存储测试小结
测试主要验证了 SMTX ZBS 分布式存储和 A 分布式存储在兼容性、与 VMware vSphere 对接后的虚拟化功能、运维管理功能、存储管理功能、性能、稳定性及可靠性等方面的特性。测试共有 44 项测试用例,测试结果统计如下:
4.1 兼容性方面
SMTX ZBS 分布式存储支持包括 iSCSI、NVMe over TCP、NVMe over RDMA 在内的多种接入协议,其中 iSCSI 为标准协议,兼容性强,Linux、VMware、Kubernetes 等多种平台均可使用该协议接入 SMTX ZBS 分布式存储。NVMe over TCP 和 NVMe over RDMA 为新一代高性能接入协议,可提供比 iSCSI 更优秀的存储性能。
A 分布式存储支持 iSCSI 协议,可满足一般应用场景对存储性能的需求。
4.2 性能方面
SMTX ZBS 分布式存储能提供比 A 分布式存储更优秀的综合性能,特别是在随机读写性能方面,SMTX ZBS 性能最高可达同等条件下 A 分布式存储性能的 4 倍。对于数据库等随机 I/O 密集型的应用,SMTX ZBS 可输出更高的 IOPS,提供更快的应用响应和更高的业务效率。
4.3 功能方面
SMTX ZBS 分布式存储提供灵活的存储策略,粒度可细化到存储 LUN 级别,对于不同业务系统采用不同的存储保护级别,可有效节省空间;A 分布式存储不支持 LUN 级别的存储策略。
SMTX ZBS 分布式存储提供智能的数据恢复算法,可根据业务压力动态调整数据恢复速率,降低数据恢复对于业务系统的影响;A 分布式存储支持的恢复速率为静态设置,实际使用中数据恢复可能对业务系统产生影响。
SMTX ZBS 分布式存储提供页面向导式的故障磁盘更换功能,更换磁盘时无存储性能影响;A 分布式存储的故障磁盘更换步骤较多,每次磁盘更换,均会造成集群的整体数据再平衡,从而影响存储性能和业务响应。
SMTX ZBS 分布式存储支持在混闪集群启用常驻缓存功能,将部分需要高性能的应用虚拟机长期保持在 SSD 高速缓存上运行,获取接近于全闪模式的稳定性和持久的性能。A 分布式存储无此对应功能。
4.4 可靠性方面
由于分布式系统的同步和一致性确认机制,SMTX ZBS 与 A 分布式存储在单节点硬件故障时,均可能造成计算端的 I/O 中断,而 SMTX ZBS 的故障中断时间和处理机制优于 A 分布式存储。具体表现为 SMTX ZBS 在集群唯一的主管理节点故障时的 I/O 中断时间为 5-7 秒,其它节点故障时无 I/O 中断。A 分布式存储在任意节点故障时,均会造成虚拟机 I/O 中断,最长可到 20 秒左右。
4.5 集群扩容及规划
经测试和产品调研分析,SMTX ZBS 支持采用不同品牌、不同硬件配置的服务器进行存储扩容,在扩容时不要求每节点存储容量一致。A 分布式存储也支持不同品牌服务器扩容,但在扩容时,需要保持每节点的硬盘容量和配置一致,否则可能造成集群节点间容量不一致和性能较严重抖动的问题。
SMTX ZBS 支持采用同一软件平台和授权部署全闪和混闪两种存储架构,且已在金融行业生产数据库场景有丰富的应用案例,稳定性、可靠性等方面经过了长时间生产环境的验证。A 分布式存储也可提供全闪产品支持,但为不同平台和架构,在测试时无法部署应用。
五、项目总结
基于以上测试结果,银行信息科技部得出如下结论:
SMTX ZBS 分布式存储产品成熟稳定、性能优异、支持纯软件交付、功能丰富、服务专业性强,具备众多金融和银行业内的生产级使用案例,市场占有率高,符合信息科技部及银行对于存储系统的当前需求和中远期规划。采用 SMTX ZBS 分布式存储对银行现有存储系统进行扩容,具备如下明显优势:
运维的便利性:从安装部署、智能数据恢复、磁盘亚健康、磁盘管理等多方面,使得客户可以做到日常运维管理的“自主可控”。
高性能:使用普通硬件,在 iSCSI 接入方式下三节点服务器即可提供不低于 30 万读 IOPS 以及 20 万写 IOPS,满足银行数据库应用的存储性能需求,且可支持 NVMe-oF 协议,具备大幅的性能提升空间,延迟可以进一步降低,对于延迟敏感型的基于数据库的应用场景更加适合。
高稳定性:长时间高压力场景下存储性能波动小,不同存储容量使用率下性能衰减更低,实际可得存储空间使用率高。
高可靠性:ZBS 为 SmartX 自研的元数据管理的分布式架构,无单点故障风险,不依赖开源软件二次开发,厂商具备完全的技术兜底能力。
高可扩展性:支持多种方式的异构扩容,且存储性能随着节点扩容同步线性提升。
降低整体拥有成本:相比传统的集中式存储,SMTX ZBS 分布式存储抛弃了专有的存储系统,大幅降低硬件成本、空间和能耗;水平扩展的特性使得管理员在 IT 规划的时候无需“超买”软硬件,支持利用现有的服务器进行改造,延长硬件使用周期,降低硬件投入;SmartX 统一的管理平台也让运维工作变得更简单高效,有效降低人力维护成本。
经以上评估验证,银行科技部门于 2024 年初,进行了 SMTX ZBS 分布式存储软件系统的采购和部署,并为银行存储系统迫在眉睫的的国产化和信创转型,先行进行了方案验证和技术储备。截止当前,开发测试环境已部署存储系统约 360T 容量,已正常稳定运行超过半年时间。下一步,银行计划在生产环境部署 SMTX ZBS 分布式存储,以逐步替换在用的集中式存储架构。
更多银行用户 IT 基础设施现代化转型与评测实践,欢迎通过《金融核心生产业务场景探索文章合集》系列电子书深入了解。
推荐阅读: